科研星球

8分纯生信miRNA预测模型套路大曝光

      现在,ceRNA,预测模型,WGCNA,预后分析等等已经成为生信入门级别的套路了,大多数纯生信的文章可能如今只能发2-3分的文章了。

      最近,发现一篇非常熟悉的套路文章——miRNA预测模型,竟然是2020年7月份[IF:8.579]的。非常惊讶!接下来就好好解析这篇文章,看是否能学习到其中的奥秘呢?



原文链接:
https://www.thno.org/v10p8771.htm 


640.png




文章背景

      三阴性乳腺癌(TNBC)是目前复发率最高、生存期最短的乳腺癌。并且,由于缺乏有效的治疗靶点,TNBC的治疗策略仅限于手术,化疗和放疗。因此,迫切需要一种优于TNM分期系统的风险评估方法来预测术后的复发率,改善患者预后价值。


本文通过从癌症基因组图谱(TCGA)数据库和GEO数据库中获得癌症患者的miRNA数据和临床信息,通过Logistic回归和高斯混合分析建立8-miRNA预测模型,并进一步利用验证数据集来验证预测模型的准确性。




文献内容


下载.jpeg




1

 研究对象


数据集:TCGAGEO

下载TCGA_BRCA的miRNA数据,其中包括117名患者,637名正常人;

从GSE40525下载miRNA数据,其中包括

验证数据集:GSE40049GSE19783E-MTAB-1989



2
差异分析


      通过癌症组织和癌旁组织分组求取差异基因,以P<0.05,FDR<0.05为标准筛选差异基因。结果显示:分别从TCGA_TNBC,GSE40525中得到109,44DEmiRNAs。并通过取交集的方式,求出共同的10DEmiRNAs,分别是miR-139-5pmiR-10b-5pmiR-486-5pmiR-455-3pmiR-107miR-146b-5pmiR-17-5pmiR-324-5pmiR-20a-5pmiR-142-3p(图1A-B)。

      同时,在TCGA,GEO中,10个候选miRNAs水平在癌症与癌旁组织中的差异均有统计学意义(图1C-D)。


下载 (1).jpeg


 图1 10个候选miRNA在TCGA_TNBC和GSE40525数据集的差异表达


3

TNBC复发预测模型建立


      运用高斯混合模型对10个miRNA进行聚类分析,并且通过Logistic回归模型,ROC曲线计算出对应的AUC值。


      结果显示,一共将基因聚类到8个聚类中,并且选取最高AUC值的第八个聚类作为TNBC复发的预测模型,其包括8个miRNAs(hsa-miR-139-5p, hsa-miR-107, hsa-miR-486-5p, hsa- miR-10b-5p, hsa-miR-146b-5p, hsa-miR-455-3p, hsa-miR-20a-5p and hsa-miR-324-5p)(图2A)。

      因乳腺癌按分子分型,分为luminal A型,luminal B型,HER2型,TNBC型。接下来计算预测模型在各分子分型中的AUC值。

      结果显示,此复发预测模型在TNBC型中的AUC值仅为0.8,并且比其他分子分型的要低(图2B)。


下载 (2).jpeg


 2 logistic回归模型和AUC值结果


4

TCGA中预测模型的验证


      通过预测模型计算风险分数,风险分数=(0.02554× expression value of miR-139) + (-0.000005284× expression value of miR-10b) + (-0.0003305× expression value of miR-486) + (0.008664× expression value of miR-107) + (0.003201× expression value of miR-324) + (0.001031× expression value of miR-455) + (0.000474× expression value of miR-146b) + (-0.001575× expression value of miR-20a)


      取中位数1.602为截点分为低风险(n=56),高风险(n=55)两组(其中6个患者样本信息无OS和DFS对其进行删除)(图3A-B。并进行KM生存分析分别计算对应的总生存率与无病生存率。

      结果显示,相比于低风险组,高风险组有更好的复发率和死亡率(图3C-D。且预测模型的AUC值为0.8032,表明预测模型有较高的准确率,能显著提高预后价值(图3E)。


下载 (3).jpeg
 图3 8-miRNA预测模型111TNBC患者中的预测价值


5

预测模型与临床特征的相关性


      进一步采用KM分析方法确定模型中单独的miRNA与临床特征的关系。


      结果显示:hsa-miR-486-5p hsa-miR-455-3phsa-miR-107表达量在两组的总生存率中具有显著差异(图 4A-B);而只有hsa-miR-139-5p表达量在在两组的无病生存率中具有显著差异(图 5A-B)。

      这些结果表明hsa-miR-139-5p的表达量和TNBC患者的复发率有关,hsa-miR-486-5p hsa-miR-455-3phsa-miR-107表达量和TNBC患者的生存率有关。

      进一步也计算了miRNA表达量对TNM分期的影响。

      结果显示只有hsa-miR-139-5p表达量在肿瘤Ⅰ-Ⅱ期和Ⅲ-Ⅳ期间有显著差异,并且与淋巴转移,远处转移相关(图6)。

      以上结果表明,hsa-miR-139-5p可能在TNBC的进展和转移中发挥重要作用。


下载 (4).jpeg


 图4 8个miRNA的表达量对生存率的影响


下载 (5).jpeg


 图5 8个miRNA的表达量对无病生存率的影响


下载 (6).jpeg

 图6 8个miRNA的表达量对TNM分期的影响


6

富集分析


      为了研究miRNAs与其功能之间的关系,作者进行了基于GO功能分析和Hallmark信号通路的GSEA富集分析。


      GSEA结果发现模型相关的miRNA在炎症和癌症转移相关通路中发挥作用。而前10GO通路均与淋巴细胞活化,细胞间黏附,质膜的外侧有关,这些也是与炎症反应,肿瘤进展高度相关(图7A-B

      为了进一步确认与模型相关的生物学功能,将从miRTarBase得到靶向基因,将基因与模型放在一起确认他们的生物学功能。结果显示最显著的通路与免疫系统,细胞反应,基因表达,癌症和信号的转导有关(图7C-D

      以上结果表明,预测模型与炎症和癌症转移密切相关。这一发现可能是由于免疫逃逸促进了肿瘤复发,因此相对于低风险的患者而言,高风险患者有更高的复发率和死亡率。


下载 (7).jpeg
 图7 预测模型的富集分析图


7

GEO中预测模型的验证


      验证数据集:GSE40049GSE19783E-MTAB-1989


      先对数据集进行分组。GSE40049中以风险分数(中位数=-1.9938分为高风险组(n=11)和低风险组(n=13)。GSE19783中以风险分数(中位数=-3371分为高风险组(n=8)和低风险组(n=10)(图8A-B)。

      然后通过KM生存分析发现,与低风险组相比,高风险组有更高的复发率(文中没有显示E-MTAB-1989的结果图)(图8C-D)。同时,验证数据集的AUC值为0.8961(GSE19783)和0.9062(GSE40049),而训练数据集的AUC值为0.8032(图8E)。

      结论:8-miRNA预测模型有较高的准确性并能显著改善预后价值,且高风险组的复发率和死亡率高于低风险组。


下载 (8).jpeg


 图8 预测模型的预测结果




总结

      到了最后可以发现,这篇文章的套路还是十分友好的,换了任意一种癌症都可以模仿。那他为何能发如此高的文章呢?其实这篇文章的图标做的蛮漂亮的。并且虽然是纯生信文章,但两个数据库的应用,与临床信息的分析,最后的验证做得挺全的。
640 (1).png



没有账号?